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Разработка и оценивание модуля 
транскрибирования для распознавания 
и синтеза русской речи 


Статья описывает модуль транскрибирования, позволяющий создавать базовые транскрипции для 
слов и текстов, а также альтернативные транскрипции, описывающие вариативность произношения 
СЛОВ В разговорной речи. В статье представлены результаты экспериментов по распознаванию речи с 
использованием базового и расширенного фонематических словарей. 


Введение 


Для систем автоматического распознавания и синтеза речи необходимо создавать 
фонетические транскрипции слов. Транскрипции могут быть созданы вручную, но этот 
процесс является трудоемким, а при разработке новой системы с другим словарем 
требуется создавать транскрипции заново. Поэтому предпочтительным является 
генерировать транскрипции автоматически. Для систем распознавания речи 
транскрипции создаются по списку слов, а для систем синтеза речи — по входному тексту. 
При создании транскрипции текста необходимо учитывать фонетические явления, проис- 
ходящие на стыках слов. А при создании транскрипций для систем распознавания разго- 
ворной речи для каждой словоформы необходимо создавать альтернативные транс- 
крипции, которые учитывали бы различные возможные варианты произнесения слов. 
Поэтому нами был разработан модуль фонематического транскрибирования, который 
может работать в трех режимах: 

1. Создание эталонных транскрипций для списка независимых слов. 

2. Создание транскрипций для произвольных связных текстов. 

3. Создание альтернативных транскрипций слов, которые учитывают различные 
варианты возможного произнесения одного и того же слова в разговорной речи. 

Первый режим используется для создания базового словаря системы распознава- 
ния. В этом режиме на вход модуля транскрибирования поступает список слов, для 
которых транскрипции создаются с использованием базовых фонетических правил 
транскрибирования [1] и словаря словоформ с отмеченным ударением (ударениями). При 
транскрибировании возможны следующие позиционные изменения классов звуков: из- 
менения гласных в положении под ударением, изменения гласных в предударных слогах, 
изменения гласных в заударных слогах, позиционные изменения согласных. В качестве 
фонетического алфавита используется модифицированный вариант международного 
фонетического алфавита ЗАМРА. В нашем варианте используются 48 фонем: 12 — для 
гласных звуков (с учетом ударных вариантов) и 36 — для согласных (с учетом твердости и 
мягкости звуков). Знак [!] используется для обозначения ударения в слове, знак [`] — для 
обозначения второстепенного ударения и знак ['] — для обозначения мягкости согласных. 
Алгоритм создания базовых транскрипций слов описан в [2]. Полученные транскрипции 
затем могут быть использованы для второго и третьего режимов работы модуля. Предва- 
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рительным этапом создания транскрипций является определение положения ударения в 
слове. В следующем разделе будет рассмотрен процесс нахождения ударения в слове, а в 
последующих разделах будут представлены режимы создания транскрипций для текстов 
и альтернативных транскрипций слов. В последнем разделе будут представлены резуль- 
таты распознавания речи с использованием различных словарей. 


Определение положения ударения в слове 


Для создания транскрипций слов необходимо наличие базы данных словоформ рус- 
ского языка с отметкой ударения. В качестве такой базы использовались две базы данных, 
доступные в Интернете: (1) — созданная в ходе проекта ЗТАВИ МС (руководитель проекта 
С.А. Старостин) [3]; (2) — являющаяся частью морфологического анализатора, разрабо- 
танного А.В. Сокирко [4]. Первая база данных содержит около 1 млн 800 тыс. различных 
словоформ, это количество словоформ является недостаточным для описания русского 
языка. В этой базе для некоторых сложных слов проставлено второстепенное ударение. 
Вторая база данных содержит свыше 2 млн 200 тыс. словоформ. Однако в этой базе дан- 
ных, в отличие от первой, отсутствует буква 6 и информация о второстепенном ударении. 
Поэтому эти две базы данных были объединены, объем получившейся базы данных пре- 
высил 2 млн 300 тыс. различных словоформ. 

Блок-схема алгоритма простановки ударений для исходной словоформы представ- 
лена на рис. 1. В служебных словах (предлоги, союзы), состоящих из одного слога, глас- 
ная является безударной. Поскольку для автоматического транскрибирования текста 
необходима информация о положении ударной гласной, то для служебных слов транс- 
крипции были созданы вручную. Если слово является знаменательным, то положение 
ударной гласной определяется по получившейся базе данных. Однако в этой базе данных 
для многих сложных слов отсутствует второстепенное ударение, поэтому если для ис- 
ходного слова в базе данных отмечено два ударения, то основное и второстепенное уда- 
рения проставляются в соответствии с тем, как указано в базе данных. Если же для 
исходного слова не отмечено два ударения, то осуществляется проверка, является ли 
слово сложным. Для этого сначала производится проверка, есть ли в слове дефис. Если 
слово написано через дефис, тогда это слово разбивается на две части, и затем эти две 
части слова по отдельности ищутся в базе данных ударений. Если они обнаруживаются в 
базе данных, второстепенное ударение ставится на первое слово, а основное — на второе. 
Если отдельных частей слова в базе данных нет, но есть исходная словоформа, у которой 
отмечено одно ударение, то тогда в исходной словоформе ставится основное ударение в 
соответствии с базой данных. Если исходное слово не содержит дефиса, тогда осуществ- 
ляется проверка, является ли начало слова префиксом иноязычного происхождения (на- 
пример, исевдо-, анти-, квази-). 

Если начало слова содержится в списке иноязычных префиксов, то происходит по- 
иск оставшейся части слова в базе данных словоформ. Если начало слова не найдено в 
списке префиксов, или конец слова не найден в базе данных словоформ, то осуществля- 
ется поиск этого слова целиком в базе данных словоформ, и ударение ставится в соответ- 
ствии с тем, как указано в ней. Во второй базе данных словоформ вместо буквы 6 
употребляется е, поэтому если целиком слово в ней не найдено, то происходит проверка, 
есть ли в исходном слове буква 6. Если буква 6 есть, то ударение ставится на эту букву 
(справедливо всегда). Если буквы 6 в исходном слове нет и по базе данных ударение 
также не найдено, то это слово не транскрибируется из-за невозможности корректно про- 
ставить ударение. 
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Рисунок 1 — Блок-схема алгоритма простановки ударений для слова 


«Искусственный интеллект» 372009 


Разработка и оценивание модуля транскрибирования для распознавания... 4К 


Создание транскрипций для текстов 


Данный режим работы может использоваться в синтезаторе речи и при обучении 
систем распознавания речи. В этом режиме на вход модуля транскрибирования посту- 
пают не отдельные слова, а тексты. При транскрибировании текстов учитывается лек- 
сический контекст, то есть фонетические явления, происходящие в слитной речи на 
границах слов, поскольку при слитном произношении начала и концы слов зависят от 
соседних слов. 

При транскрибировании текстов для стыков слов применяется ряд правил, описы- 
вающих межсловные фонетические явления [5]: 

1. Если в начале слова стоит сочетание фонем /йи/, причем гласная безударная, оно 
переходит в фонему /ы/ в случае, если первое слово заканчивается на твердую согласную 
(город в Якутии /го!рат в йику!т'ии/ — /то!рат в ыку!Т'ии/). 

2. Первая в слове гласная /и/ после всех твердых согласных переходит в фонему /ы/ 
(лист ивы /л'и!ст ы!вы/). 

3. Безударные гласные редуцируются до полного исчезновения, если они находятся: 

а) между одинаковыми согласными (мясо сырое /м'а!са сыро!йе/ > /м'а!с сыро!йЙе/); 

Ь) после одной из парных по глухости — звонкости согласных и перед соответст- 
вующей парной согласной (степи большие /с'г'е!пи балтшь!йе/ — /с'г'е!п' балшы!йе/). 

4. Фонемы /т/ и /д/, стоящие после /с'/ и /3'/ соответственно, редуцируются до 
полного исчезновения (есть порох /йэ!с'т" по!рах/ —> /Иэ!с' по!рах/). 

5. Фонемы /т/ и /д/, стоящие после /с/ и /з/ соответственно, редуцируются до 
полного исчезновения (хвост коровы /хво!ст каро!вы/ —> /хво!с каро!вы/). 

6. Согласная /Й/ в конце слова редуцируется до полного исчезновения, если ей 
предшествует безударная гласная, а следующее слово начинается с любой фонемы, кроме 
ударной гласной (красный шар /кра!сный ша!р/ —> /кра!сны ша!р/). 

7. На стыке двух знаменательных слов глухие согласные /п/, /т’/, /т/, /т'/, /к/, /к’/, /фИ, 
/ф"/, /с/, /с"/, лшу, /ли/, ИИ, /9/ озвончаются перед фонемами /б/, /д/, /Т/, /з/ или /ж/. На стыке 
служебного и знаменательного слова внутрисловные правила ассимиляции по глухости — 
звонкости сохраняются, т.е. в положении перед глухими шумными согласными звонкие 
шумные согласные оглушаются, и на их месте выступают глухие шумные, в положении 
перед звонкими шумными согласными, кроме /в/, /в’/, глухие шумные озвончаются, и на 
их месте выступают звонкие шумные (с дороги /здаро!"'и/, в лесу /вл’эсу!/). 

8. Сочетание фонем /с'Г'/ в конце слова переходит в фонему Лщ/, если следующее 
слово начинается с /ч/ (есть чему /йэ!с'т"' чэму!/ —> /ЙэНц чэму!/). 

9. Если на стыке двух слов находятся одинаковые согласные, то согласная первого 
слова редуцируется (лес сосновый /л’э!с сасно!вый/ — /л'э! сасно!вый/). 

При обработке текста учитываются знаки препинания. Поскольку на знаках препи- 
нания люди обычно делают паузу, стыки слов, разделенных каким-либо знаком препи- 
нания, рассматриваются без контекста соседнего слова. 


Создание альтернативных транскрипций 


Альтернативные транскрипции необходимы при разработке систем распознавания 
разговорной речи. В разговорной речи произношение слов варьируется: различные дик- 
торы могут произносить одно и то же слово по-разному, кроме того, произношение 
одного и того же диктора может меняться в зависимости от контекста и темпа речи. Для 
разговорного стиля речи характерны такие явления, как ассимиляция, а также редукция 
некоторых фонем вплоть до полного исчезновения. Поэтому транскрипции произнесен- 
ных слов часто не совпадают с транскрипциями, сделанными по фонетическим правилам 
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русского языка. Например, слово шестьдесят, которое имеет базовую транскрипцию 
Лшы з' д’ ис'а!т/, в разговорной речи часто произносится как Липы с'а!т/ или даже 
Ли с' а! т/. Для учета явлений редукции и ассимиляции необходимо добавление альтерна- 
тивных транскрипций в словарь системы распознавания. 

Разработанный модуль фонематического транскрибирования создает альтернатив- 
ные транскрипции, используя правила, описывающие возможные явления редукции и 
ассимиляции фонем [5], [6]. Алгоритм автоматического создания альтернативных транс- 
крипций и расширенного словаря системы распознавания представлен на рис. 2. 
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Рисунок 2 — Диаграмма процесса создания расширенного словаря системы 
распознавания речи 


Базовые транскрипции слов поступают в блок учета внутрисловной и межсловной 
редукции, где для каждой базовой транскрипции слова определяется, какие фонемы 
подвержены редукции. На выходе блока получается набор альтернативных транскрипций 
данной словоформы, учитывающий все возможные сочетания редуцируемых фонем. 
Далее в блоке учета межсловной ассимиляции производится анализ первых и последних 
фонем в транскрипции, в случае обнаружения фонем, подверженных ассимиляции, 
производится генерация всех возможных контекстно-зависимых вариантов транскрип- 
ций. Таким образом, получается полный словарь всех возможных альтернативных 
транскрипций. 
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В качестве акустических моделей речевых единиц используются скрытые Марков- 
ские модели (СММ) с тремя состояниями [7]. Начальное создание и обучение моделей 
фонем производится с учетом экспертной разметки части речевого корпуса, а затем 
модели дополнительно обучаются с использованием автоматической разметки. Для 
выбора из множества альтернативных транскрипций осуществляется их принудительное 
выравнивание (Югсе аНоптепй), при котором распознаватель выбирает из списка аль- 
тернативных транскрипций наиболее подходящую речевому сигналу и сегментирует 
сигнал на фонемы с их временными метками. В этом случае выбор транскрипции 
происходит только между альтернативными транскрипциями одного и того же слова, а не 
между транскрипциями разных слов [8]. 

Наилучшая транскрипция выбирается следующим образом [9]: 


В= аго тах Р(В | А, И’) = аго тах Р(А, В И’) = аго тах Р./ (А | В, И’)Р, (В И’), 
В В В 


где В находится по алгоритму Витерби [7]; Р.„, Р, представляют собой основные 


акустические модели и словарь соответственно, А — последовательность векторов при- 
знаков, В — последовательность фонем, И’ — последовательность произнесенных слов. 
Альтернативные транскрипции рассматриваются равновероятными. 

Основой процедуры принудительного выравнивания является алгоритм Витерби, 
который находит оптимальную последовательность состояний СММ на основе макси- 
мальной акустической вероятности. Суть классического алгоритма Витерби заключается 
в задании начальных параметров модели с последующим чередованием фаз оценки и 
максимизации данных параметров по критерию максимального правдоподобия. 

Для каждого выравнивания алгоритм Витерби вычисляет вероятность того, что фо- 
нематическая транскрипция и речевой сигнал подходят друг другу. Наибольшие вероят- 
ности при выравнивании транскрипций каждого слова позволяют выбрать оптимальные 
варианты транскрипций. В результате выполнения принудительного выравнивания 
выбирается транскрипция, наиболее оптимально подходящая определенному участку 
речевого сигнала. Транскрипции, которые ни разу не выбрались при принудительном 
выравнивании, исключаются из словаря, и таким образом создается сокращенный сло- 
варь транскрипций. Однако этот сокращенный словарь является избыточным и содержит 
редкие варианты произношения, что приводит к увеличению акустической и лексической 
неоднозначности. Поэтому для уменьшения избыточности словаря производится анализ 
того, насколько часто каждая альтернативная транскрипция выбиралась в ходе обучения, 
и создается частотный словарь транскрипций. Таким образом, в итоговый расширенный 
словарь добавляются только те транскрипции, относительная частота появления которых 
выше определенного порога. В результате создается расширенный (относительно базо- 
вого) словарь фонематических транскрипций, содержащий наилучшие транскрипции для 
каждого слова. 


Результаты экспериментов 


Из табл. 1, в которой представлен фрагмент транскрибированного текста, можно 
увидеть различия между базовой транскрипцией и транскрипцией, учитывающей меж- 
словные фонетические явления. В слове вокруг конечная фонема /к/ была редуцирована, 
поскольку следующее слово (которого) начинается с фонемы /к/. Аналогично происхо- 
дит редукция фонемы /м/ в слове снегом. На стыке слов дерево и вокруг не происходит 
редукции фонемы /а/, находящейся между фонемами /в/, поскольку эти слова разделены 
запятыми. В слове засыпанный согласно правилу 6 редуцируется фонема /Й/, поскольку 
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перед ней стоит безударная гласная, а следующее слово начинается не с ударной гласной. 
В слове же гигантский редукция /Й/ не происходит, потому что между словами гигант- 
ский и засыпанный стоит запятая. 


Таблица 1 — Пример фонематического транскрибирования предложения 


Исходный текст Базовая транскрипция |'Транскрипция, учитывающая 
межсловные явления 
Случайно взгляд мой упал | случа!йна взгл'а!т мо!й случа!йна взгл'а!т мо!й упа!л 


на дерево, вокруг которого | упа!л на дэ!р'ева вакру!к | на дэ!р'ева вакру! като!рава 
расположился гигантский, | като!рава распалажы!лс'а | распалажы!лс'а г'ига!нск'ий 
засыпанный снегом гига!нск'ий засы!паный засы!паны сн’э!га 
муравейник. сн’э!гам муравэ!йн'ик мурав’э!йн'ик 


Для оценки разработанного модуля транскрибирования были проведены экспери- 
менты по распознаванию слов и слитно произнесенных фраз при использовании базового 
и расширенного словаря. Для обучения и тестирования системы распознавания был вы- 
бран речевой корпус, содержащий записи произнесенных различными дикторами семи- 
значных номеров телефонов, таким образом длина фразы варьировалась от трех до семи 
слов. Запись корпуса производилась по аналоговому телефонному каналу с частотой 
дискретизации 11 кГц, 16 бит на отсчет, моно. Всего корпус содержит около 1000 фраз, 
из них 80% фраз каждого диктора использовались для обучения системы и 20% -— для 
тестирования. В записи корпуса приняли участие 32 диктора, их средний возраст соста- 
вил 22 года. Для распознавания слитной русской речи использовался разработанный в 
СПИИРАН декодер ЗТВПОЗ [10], основанный на представлении словаря распознавания в 
виде двухуровневого морфофонемного префиксного графа. Результаты распознавания 
представлены в табл. 2. 


Таблица 2 — Результаты распознавания речи при различных способах создания 
фонематических транскрипций для словаря 


Транскрипции, составляющие словарь 
базовые, созданные р а выбранные  |с порогом 0,15 для 
автоматически й при обучении | альтернативных 
автоматически 
Ро: 37 264 181 75 
транскрипций 

Ошибка АСПеОВАВАНИЯ 3.92 3.79 3.65 3.38 

слов, % 
Е и 12,99 12,43 11,86 10,17 

фраз, % 


При распознавании с базовым словарем объемом в 37 слов количество неправильно 
распознанных слов составило 3,92%, количество неправильно распознанных фраз — 
12,99%. После применения правил редукции и ассимиляции объем словаря увеличился 
по отношению к базовому более чем в 7 раз и составил 264 транскрипции. Точность 
распознавания увеличилась по отношению к точности распознавания с базовыми тран- 
скрипциями на 0,13% по словам и на 0,56% по фразам. После исключения из словаря тех 
транскрипций, которые ни разу не выбрались при обучении, объем словаря составил 
181 транскрипцию. При этом точность распознавания немного выросла. Затем был введен 
порог, равный минимально-допустимой относительной частоте встречаемости каждой 
транскрипции в обучающем корпусе. Наибольшая точность распознавания была дости- 
гнута при пороге 0,15: по словам 96,62% и по фразам 89,83%. При данном пороге для 
каждого слова в среднем было по 2,03 транскрипции. 
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Выводы 


Разработанный модуль транскрибирования позволяет создавать фонематические 
транскрипции как для списка слов, так и для текстов. Создание транскрипций для текстов 
является особенно важным для систем автоматического синтеза речи, поскольку полу- 
ченные транскрипции описывают фонетические явления, происходящие на стыках слов. 
Также данный модуль транскрибирования позволяет создавать альтернативные транс- 
крипции слов, учитывающие явления редукции и ассимиляции, возникающие в разговор- 
ной речи. Расширенный словарь с альтернативными транскрипциями может быть исполь- 
зован для систем распознавания разговорной речи. Проведенные эксперименты по 
распознаванию речи с использованием базового и расширенного словаря показывают, что 
использование альтернативных транскрипций увеличивает точность распознавания. 
Однако использование слишком большого числа альтернативных транскрипций увеличи- 
вает лексическую неоднозначность и может привести к снижению точности распознава- 
ния. Поэтому необходимо ограничивать число альтернативных транскрипций путем 
введения порога. Регулируя величину порога, можно повысить точность распознавания. 
Для словаря, использованного в данной работе, оптимальный порог был равен 0,15. 
В дальнейшем планируется проверка работы данного модуля транскрибирования для 
словаря большого объема. 

Работа проводится при поддержке фонда РФФИ: проект № 08-08-00128-а «Модели- 
рование нефонемных речевых элементов и создание альтернативных транскрипций для 
распознавания спонтанной русской речи» и проект № 09-07-91220-СТ а «Методы и мно- 
гомодальные интерфейсы для бесконтактной коммуникации инвалидов с информаци- 
онно-справочными системами». 
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Розробка 1 ощнювання модуля транскрибування для розшзнавання 1 синтезу росйсько! мови 

Стаття описуе модуль транскрибування, що дозволяе створювати базов! транскрипцй для слв та текст, а 
також альтернативн! транскрипцй, як! описують варативнсть вимови у розмовшй мов!. У стати наявн! 
результати експериментв з розшзнавання мови з використанням базового та розширеного фонематичних 
словник. 


1.5. Юруакоъа, А.А. Кагроу 

РеуортепЕ апд Еуашайоп ог Фе Тгапзсирйоп Модше №ог Весосп оп ап@ Зупе$5 оЁ Виз ап ЗреесВ 
ТБе рарег дезсгоез ве Напзсирйоп пофШе Фаё аПо\!з сгеайпе фаз1с гапзсириоп$ Юг У’ога$ ап4 {ех{з аз ме аз 
аПеглануе гапзсирйопз$ а дезсте \уогА ргопипсаНоп уапаб у ш сопуегзанопа| зреесЬ. Ехрегитеша| гези 
оп ажютайс зреесВ гесоотуйоп у Баяс ап ежепаеа рбопепис @сйопанез аге ргезеще4 т Фе рарег. 
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